查看原文
其他

【精彩论文】不完全信息下基于深度双Q网络的发电商三段式竞价策略

中国电力 中国电力 2023-12-18


不完全信息下基于深度双Q网络的发电商三段式竞价策略


杨朋朋1, 王蓓蓓1, 胥鹏1, 王高琴2, 郑亚先2

(1. 东南大学 电气工程学院, 江苏 南京 210096; 2. 中国电力科学研究院有限公司, 江苏 南京 210003)


摘要:不完全信息的电力市场环境下发电商仅知道自身相关的信息,而其他市场参与者的报价和市场环境都可能会影响市场出清结果,进而影响发电商的收益,因此其报价决策应当考虑多维的市场信息。基于深度强化学习算法,提出多智能体的DDQN(double deep Q-network)算法模拟日前现货市场中发电商三段式竞价策略的过程。首先,定义发电商模型中马尔可夫决策过程的要素和动作价值函数;然后,建立发电商深度双Q网络的框架,并引入经验池和动态ε-greedy算法进行神经网络的训练,该决策模型可以根据市场的出清电价和负荷水平等多维连续状态做出报价;最后,通过算例比较了发电商采用DDQN和传统Q-learning两种算法获得的收益差别,说明DDQN算法可以根据发电商面临的复杂市场环境做出正确的决策而Q-learning算法在环境复杂时决策能力较差,并在不同状态量选取、网络泛化能力、更大规模算例适应性等方面分析了发电商采用DDQN算法进行市场策略生成的有效性和优越性。


引文信息

杨朋朋, 王蓓蓓, 胥鹏, 等. 不完全信息下基于深度双Q网络的发电商三段式竞价策略[J]. 中国电力, 2021, 54(11): 47-58.

YANG Pengpeng, WANG Beibei, XU Peng, et al. Three-stage bidding strategy of generation company based on double deep q-network under incomplete information condition[J]. Electric Power, 2021, 54(11): 47-58.


引言


目前,中国电力现货市场的改革正在逐步推进,广东、浙江已先后启动电力现货市场的建设[1-2]。随着电力体制的改革,传统的发、输、配一体化的模式被打破,市场成员需要主动参与市场竞争。对于市场中的发电商来说,其参与市场交易的根本目的是最大化自身收益,随着发电侧电力市场的初步形成,如何建立最优的竞价模型,从而形成最优的竞价策略,成为市场环境下发电商最为关键的问题。传统的研究发电商最优竞价策略的方法通常是博弈论方法[3-6],但是博弈论方法在构建模型时往往需要在市场成员数量等方面对模型做出简化或者限制,如设置市场的完全或不完全信息条件,或者基于概率的方法估计对手的报价[7-8],因此具有一定的局限性。为了模拟非完全信息的电力市场真实环境中众多竞争对手存在的情况下,发电商最大化自身收益的有限理性报价行为,越来越多地采用基于数值驱动的强化学习等机器学习算法。在已有研究方面,文献[9]使用改进Q-learning算法的SA-Q学习算法,研究发电商的容量持留和合谋行为;文献[10]提出了一种选择概率的强化学习算法,研究发电商利用线路阻塞实施市场力的行为;文献[11]将日前电力市场的竞价过程视为竞争型马尔可夫过程,提出了一个非零和随机博弈论模型和一个基于强化学习的算法,用来评估日前市场中的发电商市场力;文献[12]应用Q-learning算法构建以长期利润最优为目标的发电公司决策模型,根据发电商对市场状态变化的不同预估状态转移概率模拟该公司在市场环境下的不同竞价策略。

目前基于强化学习算法的发电商报价策略的研究多采用Q-learning及其变形算法。该算法的思想是通过查找有限规模的二维Q值表得到状态-动作的期望值,因此需要把模型进行相应的简化,将连续的状态空间简化成有限个状态区间。基于上述原因,Q值表的大小对Q-learning算法的寻优能力影响较大,随着模型中考虑的状态数的增加或状态区间的缩小,Q值表的规模呈指数增长,容易造成维数灾难[13]。上述缺陷使得现有的研究只能考虑低维的离散状态,普遍的做法是将市场出清价格划分区间作为输入状态[9,14-15],或是直接以状态转移概率作为Q[16],以上方法将出清电价模糊化处理,并忽略了系统总负荷需求等对于报价发电商收益有重要影响的因素,由于输入信息的缺失,发电商呈现出的报价行为对于市场影响的反馈将不一定准确,从而影响其最终收益。

DQN(deep Q-network)算法是将深度学习与强化学习结合,基于数据驱动的思想直接从高维原始数据学习动作策略的算法,避免了Q-learning算法由于维数灾问题而不得不简化模型的弊端[17-21]。目前将DQN算法应用到发电商竞价建模的研究还比较少,文献[22]的出清模型较为简单,并未考虑支路潮流约束、节点平衡约束等电网约束条件,并且只是简单地将报价从低到高排列出清,出清结果可能与实际的出清结果相差较大。
本文基于发电商在电力现货市场中的三段式报价策略行为,针对DQN算法在计算未来状态下的期望奖励时存在过度估计的问题[23],提出一种基于改进DQN算法,即DDQN算法的发电商竞价决策模型,并通过算例结果验证DDQN方法的优越性。

1  市场模型


假定发电商只参与日前现货市场的电能市场。日前市场模型不考虑需求侧的报价,在日前市场中,各发电商根据系统调度员(independent system operator,ISO)提供的第二天预测负荷,按照收益最大的原则,上报自己的投标曲线,每小时上报三段电能曲线,ISO按照社会福利最大化的原则进行出清并向发电商返回价格、中标量等出清结果。

1.1  发电商机组竞价模型

假设每个发电商只按照自有的装机情况将其所有机组等效成一台容量可调的虚拟机组,发电商的机组都是煤电机组,其燃料成本为发电机出力的二次函数,求微分得到边际成本,边际成本为一阶线性函数[24]

在电能投标模型中,发电商采用三段式阶梯报价,将机组的最大出力减去最小出力并三等分[25]。将第一段报价容量为最小出力加上三等分容量,第二段和第三段报价容量相等,均为三等分容量,每段报价价格均基于终止容量对应的边际成本,然后乘上一个报价系数,且三段式报价中前一段的报价系数不高于后一段的报价系数。发电商报价曲线如图1所示。

图1  发电商报价曲线

Fig.1  Bidding curve of generators


发电商的报价函数为

式中:为发电商i在时刻h的三段电能投标曲线;分别为发电商i在时刻h的三段电能投标系数, 其中,当时,发电商按照边际成本报价,而当时,发电商进行策略性报价;分别为三段式报价的终止容量;aibi分别为边际成本的一项次系数和常数项系数;Qi为对应的边际成本;G为发电商集合。

本文提出的发电商决策模型并不只适用于三段式报价的形式,供给函数、单段报价、多段报价等报价形式同样适用。

实际的电力市场是一个信息披露不完全的市场,发电商只了解自己的机组信息、投标信息以及系统总负荷等公共信息。在国外的电力市场,节点电价等信息也是延迟一段时间披露[26],因此在求取发电商的最优竞价策略时,应当成不完全信息博弈的情况来考虑。在竞争性市场中,发电商的策略性行为可以看作是一个典型的双层优化模型,上层为发电商的最大化效益模型,下层为ISO的购电成本最小化模型,可表示为

式中:fGi为发电商i的收益;Ci为发电商i的燃料成本函数;为发电商i在时刻h的出清价格;是发电商i在时刻h的出清电量;为发电商i在时刻h的三段式报价系数,其代表着实际报价与边际成本的比例,n取1或2或3;kiminkimax分别为发电商i报价系数的最小值和最大值。1.2  日前市场出清模型

作为市场运营者,ISO以最大化社会福利为目标进行出清,需求侧不考虑需求弹性时,ISO的目标函数即为购电成本最小,并计算节点边际电价。在进行多时段出清时,采用直流最优潮流计算,考虑发电机组的开停机变化和爬坡能力,考虑节点潮流平衡约束、支路潮流越限约束以及发电机组出力越限约束。对于发电机组的启停成本部分,本文模型参照美国PJM电力市场,在出清时不考虑发电机的启停成本,而是采用运行成本补偿的方式,运行成本补偿采用成本覆盖的方式,对无法覆盖运行成本的部分进行补偿,因此在出清模型中不考虑启停成本。最终建立的出清模型为

式中:为模型的优化决策变量,是发电商i在时刻h的第n段出清电量;L为网络节点集合;Bbranch为支路集合;为第s位用户在h时刻的负荷需求;Xij为支路ij的电抗; 分别为节点ij在时刻h对应的相角;PGimaxPGimin分别为发电机i的技术出力上下限;Pijmax为线路ij的潮流限制;RGi为机组i的爬坡和滑坡速率;αi,h表示机组i在时刻h的启停状态;TU是机组的最小连续开机时间;TD是机组的最小连续停机时间。

2  基于深度双Q网络的竞价算法


为了求解其双层优化模型,本文采用DDQN的方法,将发电商建模为智能体(Agent)。对于市场中的多个发电商智能体的行为,采用MA-DDQN(multi-agent double deep Q-network)的形式进行框架设计。如图2所示,各发电商建立独立的DDQN智能体,向ISO提交报价,ISO根据出清模型计算节点电价和出清电量并反馈给各发电商,各发电商根据连续报价的出清结果对DDQN智能体的网络进行训练。


图2  多智能体DDQNFig.2  Multi-agent DDQN

2.1  基于马尔可夫决策的发电商竞价过程建模

几乎所有的强化学习都可以建模为Markov决策过程(Markov decision process,MDP)[27],即智能体(Agent)采取行动(Action),与环境(Environment)发生交互从而获得奖励(Reward)并改变环境的状态(State)的循环过程。本文中发电商在电力市场的投标行为可以认为是典型的马尔科夫决策过程。具体建模包括如下几个要素。(1)智能体(Agent)。每个发电商都可以当成是一个agent,智能体会根据投标的策略以及反馈的结果不断学习,最终能够学习到一个比较好的竞价策略。(2)环境(Environment)。整个电力市场可以认为是外部的环境,而ISO是环境的反馈者,ISO根据所有发电商提交的竞价曲线进行出清,并向所有发电商反馈系统负荷总水平、该发电商中标电量和节点电价。(3)状态(State)。为了尽可能模拟现实中不同因素对于发电商报价的影响,考虑到竞价行为具有一定的连续性以及负荷的变化和机组的爬坡能力影响,本文模型在计算某一时段的发电商报价系数时,基于前一次竞价的历史数据,将前一个时段的系统负荷和节点电价、当前时段的系统负荷和节点电价作为输入状态。(4)动作(Action)。本文将发电商i在时段h选择的报价比例系数作为动作。(5)奖励(Reward)。发电商进行策略性报价的目的是提高收益,因此考虑通过发电商出清计算得到的收益来表征奖励。

2.2  深度双Q网络算法

本文所提出的深度双Q网络算法是一种在原始深度Q学习算法的基础上使用双网络思想减轻对Q值的过度估计,结合经验回放的训练机制和动态ε-greedy的探索机制,并对电力市场中多智能体环境做出优化的改进算法。

2.2.1  原始深度Q学习算法

在原始深度Q学习算法(DQN)中,智能体用Q值来表示智能体存储的经验,Q(st,a)表示在智能体经验中,在状态st时采取动作a能获得的期望收益。在发电商竞价模型中,Q(st,a)体现为发电商在市场状态为st时选择动作a对应的报价获得的预期奖励。由图2可知,发电商获取当前市场的出清电价、负荷等状态信息以后,根据动作价值函数计算出当前状态下每个报价系数对应的预期奖励Q(st,a),并根据Q值大小选择报价。在发电商报价以后,ISO统一出清,同时向发电商反馈实际出清奖励,发电商更新到新的出清电价和负荷状态,并根据Bellman[28]方程更新其动作价值函数,不断迭代,最终实现将动作价值函数的值收敛到稳定值。其动作价值更新公式[29]可以写为

式中:Qn+1(s,a)为新的Q值;rn 为当前动作带来的即时收益;γ 为强化学习的折扣率,表示智能体下一次动作带来的效用值对当前动作选择的影响大小;maxQn(sn+1,a')为记忆中的利益,表示智能体经验中新状态sn+1能给出的最大效用值[30]

传统强化学习算法使用Q值表来存储Q(s,a)的状态-动作值函数对。由于需要将状态离散化,在状态变量维度较高时,对高维变量离散化容易出现“维度灾难”的问题。为了解决这一问题,原始深度Q学习算法将传统强化学习算法与深度神经网络相结合,提出了nature deep Q-network(DQN)算法[31]。DQN的Q值更新公式与传统强化学习算法相同,但DQN利用神经网络实现动作价值函数近似,从而避免了离散化带来的问题,实现对连续状态的处理。

式中:θ为DQN的训练参数,包括神经网络的权重ω和偏置b

2.2.2  基于双Q网络的动作价值估计

原始DQN在计算maxQn(sn+1,a' |θ')时,存在过度估计[32]的问题。为了减小误差,本文采用了改进的DDQN[33]算法,其包含2个Q值网络:当前网络(online network)和目标网络(target network)。当前网络的网络参数记为θ,目标网络的网络参数记为θ'。当前网络和目标网络的结构和参数完全相同,唯一的区别是更新的频率不同。当前网络每一次训练都会更新参数,而目标网络每隔一段时间拷贝当前网络的参数。

当前网络用于输出发电商决策所需Q值,即式(6)中的Qn(s,a|θ);目标网络用于输出更新Q值,即式(6)中的maxQn(sn+1,a'|θ')。在训练时,优化器的目标是使得当前网络输出的Qn(s,a|θ)趋近动作价值估计值,训练的损失函数可以写为

2.2.3  经验回放机制

本文所提算法的另一个改进之处是采用experience replay memory(经验池)[32]来解决样本数据间的相关性问题。传统强化学习按顺序采集样本,每次得到结果就更新Q值,受样本分布影响,效果不好。本文所提算法把发电商每次报价的相关数据,包括当前状态、报价系数、奖励和新的状态4个信息(st,at,rt,st+1)储存到经验池。当样本数量达到一定程度,就随机拿出一些历史数据来训练,对当前网络进行梯度下降。DDQN的框架如图3所示。


图3  DDQN网络更新算法

Fig.3 Update algorithm of DDQN


2.2.4  动态ε-greedy算法

在智能体选择策略时,本文采用常见的结合模拟退火算法的动态ε-greedy算法[15],即初期智能体以较大的概率ε随机选择发电商的报价系数,同时以一个较小的概率1–ε选择当前网络输出的最大Q值所对应的发电商报价系数。随着训练次数的增加,减小随机概率ε的值,增大智能体选择最大Q值动作的概率。这使得发电商智能体在学习的初始阶段倾向于进行探索活动,而随着学习的进行,逐步减小探索活动,ε和温度T的更新公式为

式中:Q(s,ar)为根据均匀随机策略选择的动作ar对应的Q值;Q(s,ag)为当前环境下的最大Q值;Tk为第k次模拟退火过程对应的温度;T0为初始温度;δ为降温系数。

综上,发电商智能体采用DDQN算法进行训练的步骤如图4所示。


图4  智能体训练步骤流程

Fig.4  Flow of agent training steps


3  算例分析


3.1  算例及参数设置

本文基于PJM 5节点[34]算例数据进行分析,网络拓扑如图5所示。线路4—5的传输容量为240 MW,线路1—4的传输容量为400 MW,发电机参数见表1,发电机的最小出力均为容量的40%,L1、L2、L3处的负荷曲线相同,高、中、低水平负荷曲线及平滑负荷曲线如图6所示。为了比较Q-learning和DDQN算法的性能,本文选取G3的结果进行分析,kmax=3,报价动作的间隔是0.2,其他发电商均按边际成本报价。


图5  5节点网络示意Fig.5  Diagram of 5 bus system
表1  发电机参数Table 1 Generator parameters
图6  24 h负荷曲线Fig.6  24 hour load curve
在设置DDQN的超参数时,当前网络和目标网络使用全连接神经网络的结构,包括2个隐藏层,第1个隐藏层设置20个神经元,第2个隐藏层设置40个神经元,分别采用Relu作为激活函数。Experience Replay memory的大小是6 000,学习率α=0.01,折扣率γ=0.9。训练时,初始温度T0=10 000,降温系数δ=0.99。在训练阶段,每10次训练更新一次当前网络的参数,每5次更新θ将当前网络的参数复制给目标网络。在设置Q-learning的参数时,动作的间隔也设置为0.2,由于状态包括电价和负荷,在建立Q值表时需要将电价划分区间,每10 元/(MW·h)作为一个区间,每小时的负荷作为一个状态量,因此状态的个数是电价的区间大小乘以24。Q值表的大小为智能体动作的个数与状态个数相乘,Q-learning在选择动作时也采用了动态ε-greedy算法,训练次数设置为12 000次(500次乘24 h)。考虑到每个小时的负荷水平不同,发电商获得的时段收益也有区别,为了便于展示算法的训练结果,输出结果为发电商24 h的收益总和。

3.2  算法迭代过程

图7展示了发电商智能体分别使用Q-learning和DDQN算法训练的结果。发电商使用Q-learning算法训练时,一开始随机选择报价系数,奖励在一个范围内波动。随着学习过程的进行,greedy的概率越来越高,奖励的均值也不断提高,在最后阶段每次都选择收益最大的动作,收益收敛在19.7万元左右。


图7  Q-learning及DDQN算法学习过程

Fig.7  Learning process of Q-learning and DDQN algorithm


在训练时,与Q-learning算法不同的是,进入ε-greedy阶段以后,由于DDQN神经网络的训练效果较好,智能体能够判断出奖励较优的报价动作,奖励在很短的时间内迅速增加,最终收敛的结果在21.5万元左右。相比于Q-learning算法获得的收益,最终的收益总量高出了9%左右。

3.3  算法收敛结果分析3.3.1  2种算法的报价策略及结果分析图8分别展示了发电商智能体使用Q-learning算法和DDQN算法学习到的报价策略。由于发电商策略性报价的大部分收益提升来自负荷高峰时段,可以看出,在负荷高峰期的时段14—16两者的结果差别较大,DDQN算法比Q-learning算法给出的报价策略明显提高。同时,按照该报价策略进行报价,发电商G3在这3个时段的第3段报价均获得出清,因此DDQN智能体充分利用了负荷高峰时段发电商存在的市场力,通过高报价获得了高收益。

图8  2种算法的报价策略

Fig.8  Biddings strategies of two algorithms


图9进一步展示了2种算法在时段14—16的收益情况。由于发电商G3的策略性报价,在采用DDQN算法时,3个时段的节点电价都达到了45元/(MW·h)以上,而采用Q-learning算法的智能体只在时段15获得了一定的超额利润,其他2个时段的电价和收益都处于正常水平,正是这3个时段的策略性报价使得DDQN算法的收益明显高于Q-learning算法。


图9  时段14、15、16的收益和电价对比

Fig.9  Comparison of income and electricity price in periods of 14, 15, and 16


图10展示了发电商G3按边际报价获得的收益、不考虑多时段出清约束的最优收益和分别采用Q-learning算法以及DDQN算法模拟10次获得的平均收益。在本文中,将按照边际成本报价获得的收益作为正常收益水平,将策略性报价所获得的高于正常收益的部分称为超额收益。由于考虑多时段约束时解的空间非常大,无法求出最优解,将多时段约束松弛,求出一个较优解作为参考值。可以得出,基于Q-learning算法的平均收益比按照边际成本报价高出17.6%,而基于DDQN算法的平均收益比边际报价高出26.8%,这比传统的Q-learning算法平均高出7.7%。


图10  4种情况下的收益

Fig.10  Reward in four scenarios


3.3.2  2种算法收敛结果的原因分析

发电商G3在第三段报价中能够按接近封顶的报价系数报价,并获得高额收益的根本原因是G3具有最大的机组容量。由于其他机组出力不足以满足负荷需求,使得G3必须要被调用,一旦供需比低于某个临界值或者关键线路出现阻塞的情况,发电商就拥有了抬高市场整体电价水平或某个节点的电价的市场力[35]。尽管现实中几乎不允许出现这种情况[36],但这种极端情况很好地展现了DDQN智能体敏锐的决策能力。此时基于历史的训练数据学习的DDQN智能体选择运用发电商的市场力,在边际成本基础上提高报价至报价上限附近,从而抬高市场电价总体出清水平。相比之下,由于Q-learning智能体在训练时采用Q值表储存奖励,需要将电价划分区间,当区间过多时,容易出现Q值表中大量的区间没有训练填充充分的情况。没有训练充分的Q值表会给智能体带来无效甚至是错误的指引,使得其报价策略比较散乱,错失了负荷高峰时段可以抬高报价获取高额收益的机会。图11展示了Q值表中遍历过的位置个数随着迭代次数的变化情况。一开始随机学习时,Q值表处于快速探索阶段,而进入收敛过程以后,曲线逐渐平缓,最终遍历到的Q值位置个数在9 600左右。而Q值表的大小是273×264,即共有72 072个Q值,Q值表中训练过的Q值只占总数的13%,大量的状态-动作空间没有探索到,这种情况会造成Q-learning决策“失灵”。相比之下,DDQN可以基于连续的状态区间做出决策,即使是没有探索到的位置也能通过神经网络的拟合输出近似的值,有力规避了上述问题。

图11  随迭代次数增加Q值表更新情况

Fig.11  Update of Q table with increase of iterations


图12展示了Q值表中每个元素的更新次数情况,其中绝大部分元素的更新次数都在5次以下,只有少数元素由于后期报价收敛,更新次数超过100次。以Q-learning算法的学习能力,每个元素平均不到5次的更新次数并不能学习到接近真实的结果,如果想要提高学习效果,就只能通过增加训练次数来实现。


图12  Q值表元素更新次数情况

Fig.12  Update times of elements in Q table


3.4  输入状态量对于算法效果的影响分析

一般基于Q-learning算法对发电商竞价的研究只是将上一次的出清结果(出清电价)作为输入量,为了探讨输入状态量对于算法效果的影响,本节增加了DDQN输入2个变量(前一时段的负荷Lh-1和出清电价λh-1)以及Q-learning输入4个变量(前一时段的负荷 Lh-1以及出清电价λh-1,当前时段的负荷Lh以及前一次出清电价λh)2种情况,结果如表2所示。


表2  不同输入状态量的结果比较

Table 2  Comparison of different input vectors


使用Q-learning算法时,增加到4个输入状态量时,Q值表的大小变为273×120×120,已经接近“组合爆炸”。如果想要每个Q值都更新一次,最理想的情况也需要迭代3 931 200次,即使经历了10万次迭代,平均每个Q值更新到的次数也不到0.1次,相当于没有训练过,因此效果反而变差,在本例中收益低于按边际成本报价。可见,Q-learning算法只能处理相对简单的情况,面对复杂的状态时,即时增加训练需要的迭代次数,效果也不一定理想。使用DDQN算法时,如果不考虑发电商前一次的出清结果,奖励也会降低。降低的收益大部分来自尖峰时段的收益差,是由于负荷高峰时期发电商的低报价导致的。对比不同输入的结果,可以看出忽略了这2类信息以后,发电商的学习能力下降。在实际情况中,发电商在报价时也需要知道预测的负荷信息,而之前基于Q-learning算法的研究多是基于固定负荷水平,忽略了这一点。综上所述,发电商在使用DDQN模型进行决策时可以更好地结合实际情况,综合考虑历史出清电价、系统总体负荷水平即供需比等关键要素对发电商报价产生的影响。

3.5  DDQN的数据泛化能力验证

虽然居民用电和工业用电具有时间序列相似性,短期的日用电负荷曲线也大致相似,但是用户负荷的波动会导致实际负荷不可能与算法训练时的负荷曲线完全相同。因此本节研究基于DDQN的发电商决策模型的数据泛化能力。采用3组与算例负荷接近的数据,使用训练好的DDQN模型直接报价,并计算基于DDQN模型得到的奖励和边际报价的收益,结果如表3所示。


表3  不同负荷数据的仿真结果

Table 3  Simulation results of different load levels


无论是使用低负荷训练数据的测试集还是高负荷训练数据的测试集,使用DDQN算法的收益相对于边际报价都高出了20%以上。由此可见,基于DDQN的发电商决策模型面对没有训练过的泛化数据也能选择合适的报价,具备良好的数据泛化能力。而Q-learning算法由于需要简化模型,在本文的设置中只能基于固定的负荷数值去选择报价动作,不具备数据泛化能力。

3.6  更大规模的算例验证

为进一步验证DDQN算法的适用性,本节基于更大规模的10机39节点(见图13)进行仿真,发电机的经济参数如表4所示,不同时段的负荷值仍然采用图6的平滑负荷曲线数据,且假设每个负荷节点的负荷数据相同。选择发电商G3作为智能体进行训练,验证DDQN算法在大规模网络中的效果。


图13  39节点网络示意

Fig.13  Diagram of 39 bus system


表4  发电机参数

Table 4  Generator parameters


由表5的测试结果可知,对于较大规模节点的网络,本文提出的基于DDQN的发电商竞价模型同样适用。如果将市场所有发电商都基于DDQN算法进行报价,此时市场中所有的发电商都可以进行策略性报价,市场环境将更加多变。在进行多智能体模拟时,只需要增加算法探索的次数,本文所提出的算法仍然得到一个收敛结果。但是由于每个建模为智能体的发电商都需要建立单独的神经网络来进行决策,当智能体个数较多时,训练速度会变慢。因此,在对大规模的市场成员进行模拟时,最佳的方法是选择具有较大潜在市场力的发电商基于DDQN算法进行仿真。潜在市场力较小的发电商,策略性报价对市场的影响也很小,这些发电商按照边际成本进行报价,可以显著缩短仿真所需时间。


表5  39节点测试结果

Table 5  Test result of 39 bus case


4  结语


在处理非完全信息下发电商市场竞价策略的研究中,传统的Q-learning算法只能处理低维离散的状态,当状态增加时会出现“维度灾难”的问题。本文建立了发电商三段式报价参与现货市场的竞价策略模型,应用DDQN算法构建了发电商最优决策模型。仿真结果表明,DDQN算法相比于常规的Q-learning算法,在算法收敛效率及最优策略的寻找方面具备绝对优势。此外,输入状态量的谨慎选择也会影响DDQN的寻优表现。作为数值驱动方法,本文采用的DDQN模型在数据泛化能力和更大规模算例求解方面也非常有优势,有助于发电商做出更加准确的决策从而获取更高收益。

本文中发电商基于DDQN模型建立的动作空间仍然是离散的,并且为了简化模型并缩小动作空间,对机组容量进行三等分。在未来的研究中,应该改进算法,进一步细化报价动作,使发电商能够根据市场情况灵活调整每段报量报价。同时,本文在建模时没有考虑市场管理者对于发电商运行市场力的监管,未来应对市场进行更为细致的建模,研究存在监管时发电商的报价行为。

(责任编辑 李博)



作者介绍

杨朋朋(1996—),男,硕士研究生,从事电力市场研究,E-mail:564544091@qq.com;


王蓓蓓(1979—),女,通信作者,博士,副教授,从事智能用电、需求侧管理与需求响应、电力系统运行与控制、电力市场等研究,E-mail:wangbeibei@seu.edu.cn.






 往期回顾 


《中国电力》2021年第11期目录

【精彩论文】电力与通信共享铁塔的关键技术与商业模式

【精彩论文】温度对电缆附件界面缺陷处局放引发影响机制研究

【精彩论文】夏清教授研究团队 | 市场环境下分布式光伏协调售电交易机制及策略

【精彩论文】不同场强下新型绝缘聚合物的变色特性及其介电特性

【征稿启事】“新型电力系统信息安全:理论、技术与应用”专题征稿启事

【征稿启事】“面向数字化转型的电力系统大数据分析技术”专题征稿启事

【征稿启事】“双碳目标下多能互补促进新能源消纳关键技术”征稿启事

【征稿启事】“双碳目标下的新型电力系统”征稿启事


编辑:杨彪

审核:方彤

声明

根据国家版权局最新规定,纸媒、网站、微博、微信公众号转载、摘编《中国电力》编辑部的作品,转载时要包含本微信号名称、二维码等关键信息,在文首注明《中国电力》原创。个人请按本微信原文转发、分享。欢迎大家转载分享。

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存